iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 9
1
AI & Data

AI x 日常 x 30天系列 第 9

Epoch 9 - 視線估計論文筆記 x SimGAN

  • 分享至 

  • xImage
  •  

今天介紹Gaze Estimation視線估計的論文,
Learning from Simulated and Unsupervised Images through Adversarial Training

這是Apple第一篇發表的AI論文,拿到2017 CVPR Best Paper,

論文主要的思路是,
我們都知道模型要學得好,訓練集需要越大,但是標注資料的成本很高。
所以有些會使用模擬器,合成大量資料,但合成資料和真實資料還是會有差距存在,
因此本文的目的是要訓練一個Refined網絡,
使得模擬器生成的合成圖片經改善後能更貼近真實圖片。

論文中提到,可能會產生artifact的原因是,
當我們只使用一個Discriminator時,Refiner為了要欺騙他,可能會過度強調某些global特徵,
進而使得Refined圖像出現不自然的artifact。
所以把他分割為w×h個小塊來看,限制Discriminator只能看這一小塊,去判斷是不是真實的圖片
最後再把所有小塊的loss加起來。

實驗結果比較,用global loss refined的圖片,在邊緣上有劇烈的抖動,
而採用local loss的就比較平滑,符合真實情況。

接下來是第二個問題,
隨著每一次迭代,Refined輸出的圖像是逐步變化的。
相應地,Discriminator能夠有效辨識的圖像也集中在當前的Refiner中。
左圖,不斷在某個區域反覆跳動,離目標很遠。
這導致兩個問題:

  1. 訓練不收斂
  2. Refiner會重新引入之前出現過、但已經被鑑別器Discriminator忘記的artifact

所以他引入了歷史信息,讓他可以記住以前學過的,越來越接近target


做法就是加入一個Buffer,
在每次batch中,有一半的data來自buffer,另一半來源於當前Refiner的輸出。
更新完後,用當前Refiner的輸出替換buffer中一半的樣本。


從實驗可發現,增加了這個歷史信息後,圖片改善效果有明顯的提高。

Result


上列是合成數據,下列是refine過的合成數據。


比較了gaze估計在合成數據和 Refine過的合成數據(SimGAN的輸出)上訓練的性能,
可以看到有顯著的提升。


上一篇
Epoch 8 - 人臉相關論文筆記 x QuatNet
下一篇
Epoch 10 - 視線估計論文筆記 x GazeCapture
系列文
AI x 日常 x 30天30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言